Main
Herramientas de
análisis de datos
Curso breve de técnicas modernas de análisis
De una forma o de otra, es común enfrentarse con datos.
Este curso pretende ser una introducción de las diversas herramientas
disponibles para su análisis.
Se cubrirá programación básica-intermedia en R y en Python, así como buenas
prácticas para controlar versiones de código, datos, y modelos.
Temario
Introducción
Flujos de trabajo y pipelines
Lenguajes de programación
Editores de texto e IDEs
Control de versiones
Ambientes productivos
Dataframes vs. databases
N/A
2 horas
R
Editores e IDEs | RStudio, VS Code, Jupyter
APIs de manejo de datos | dplyr, data.table, base
Visualización de datos | ggplot2, ggforce, ggraph
Modelos | tidymodels
Comunicación de resultados | RMarkdown, Shiny
N/A
12 horas
Python
Editores e IDEs | Jupyter, VS Code
APIs de manejo de datos | pandas
Visualización de datos | seaborn, matplotlib
Modelos | scikit-learn
Comunicación de resultados | Jupyter
N/A
12 horas
Control de versiones
Código | git, GitHub, GitLab
Datos | DVC
Modelos | MLflow
N/A
5 horas
Temas adicionales
Makefiles | GNU Makefiles
Modelos en producción | Docker, Flask, Kubernetes, Dask, unittest, testthis, plumber
Análisis de redes | Neo4j
N/A
A disp. de tiempo
Información adicional
Audiencia
Cualquier persona con interés o necesidad de trabaja .
Cada sesión comenzará desde cero e irá construyendo hacia ejemplos de mayor complejidad.
N/A
Requisitos de sofware
Se usará R, Python, SQL y Bash para demostrar el uso de
RStudio, Jupyter Lab/Notebook, MLflow, git, MLflow, DVB, PostgreSQL,
GNU Makefiles, Docker, Flask, Kubernetes, Dask.
Para el material adicional, se necesitará la instalación de todas las herramientas.
Para las sesiones se harán ejemplos rápidos de la mayor parte de ellas,
así que es posible solo instalar R, Python, git,
RStudio, Jupyter Lab/Notebook y VS Code.
N/A
Conocimientos previos
No se necesita ningún conocimiento previo de las herramientas de software, pero sí será necesario conocimiento básico de inferencia estadística para las secciones de modelos.
N/A
Material
Toda será publicado en github.com/haro-ca/teaching/herramientas_iniciales, tanto código cubierto, como ejercicios y ejemplos adicionales.
N/A
Referencias
Libros
H. Wickham, G. Grolemund. “R for Data Science”. https://r4ds.had.co.nz/
Hadley Wickam. “Advanced R”. https://adv-r.hadley.nz/
Yihui Xie, J.J. Allaire, Garett Grolemund. “R Markdown”. https://bookdown.org/
Wes McKinney. “Python for data analysis”.
Richard McElreath. “Statistical Rethinking”.
Yifan Wu. “Is a dataframe just a table?”. http://yifanwu.net/
N/A
Blogs
Vincent Warmerdam. https://koaning.io y https://calmcode.io
Tom Augspurger. https://tomaugspurger.github.io/
Alex Ionnides. https://alexioannides.com/
Julia Silge. https://juliasilge.com/
Thomas P. Lindersen. https://www.data-imaginist.com/
Arturo Gonzales Bencomo. https://www.medium.com/arturo102964
N/A